#OpenAI GPT-5

Jesse Lau 遁一子

6个月前

一早起来看到2个顶级模型都pass了ICPC金牌水平官方措辞略有不同让GPT-5 Thinking总结了一下：下面这两段其实说的是ICPC 世界总决赛期间的两场“AI 试验赛道”，都不计入官方榜单，但使用了同一套题与评测数据，由 ICPC 监督，用来研究 AI 开发工具如何融入竞赛与教学。共同点（两则通告都强调）都用 49 届 ICPC 世界总决赛（巴库）的同一套 12 题与评测数据，由 ICPC 组织/监督，目标是探索 AI 工具与竞赛/教育的结合；均非官方参赛队伍与正式排名。(Kattis) 官方总决赛本身的核心约束：三人一机、5 小时；（世界总决赛环境通常无互联网）。关键区别 1) 赛道/平台不同 Google DeepMind（Gemini）参加的是 World Finals Online Judge 实验：远程在线环境，镜像总决赛规则（5 小时、同题、同评测）。对应的公开开放赛在 Kattis（ICPC World Finals 2025 – Open）。(Kattis) OpenAI 参加的是 World Finals Local Judge 实验：在巴库现场的本地评测赛道，面向到场的顶尖选手/教练等的开放活动，本次为 AI 增设了专用测试环境（OpenAI 为唯一 AI 队）。(X (formerly Twitter)) 2) 比赛环境与限制 Online Judge（DeepMind）：远程、遵循总决赛规则；DeepMind称其在“遵循 ICPC 规则”的在线环境完成 5 小时解题。 Local Judge（OpenAI）：现场本地评测，规则不同于官方总决赛的“三人一机、无网”硬性限制，属于开放式侧活动；此次特设 AI 测试环境，供 OpenAI 提交。＊（Local Judge 的具体细则由主办方现场设定，媒体与 ICPC 社媒将其描述为与官方赛制不同的实验性赛道。）＊ (X (formerly Twitter)) 3) 成绩与亮点 DeepMind（Gemini 2.5）：解出 10/12；若计入榜单将相当于第 2 名；并唯一解出一道人类队伍未解出的题（常被媒体提到为题 C）。(The Guardian) OpenAI（GPT-5 系列）：在 Local Judge 实验中 12/12 全解（媒体报道：其中 11 题一次通过），属金牌/冠军级别水准。(Financial Times) 4) 与官方总决赛的关系两者都不是官方参赛队，不列入官方最终成绩表；官方成绩与奖牌仍由现场人类队伍按正式赛制产出。(World Finals) 一句话总结： DeepMind：远程参加 Online Judge 实验 → 5 小时同题环境下解出 10 题、相当第 2。 OpenAI：现场参加 Local Judge 实验（开放式本地侧赛，为 AI 加测环境）→ 解出 12 题、达冠军级。(X (formerly Twitter))

#ICPC #AI #DeepMind Gemini #OpenAI GPT-5 #实验